<!DOCTYPE HTML>
<html>
<head>
<title>正则表达式调出 | AutoHotkey</title>
<meta name="description" content="RegEx callouts provide a means of temporarily passing control to the script in the middle of regular expression pattern matching." />
<meta http-equiv="content-type" content="text/html; charset=utf-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<link href="../static/theme.css" rel="stylesheet" type="text/css" />
<script src="../static/content.js" type="text/javascript"></script>
</head>
<body>

<h1>正则表达式调出 <span class="ver">[AHK_L 14+]</span></h1>

<p>正则调出提供了在正则表达式模式匹配过程中临时传递控制到脚本的方法. 关于 PCRE 标准调出功能的详细信息, 请参阅 <a href="http://www.pcre.org/pcre.txt">pcre.txt</a>.</p>

<p>正则调出当前只有 <a href="../lib/RegExMatch.htm">RegExMatch()</a> 和 <a href="../lib/RegExReplace.htm">RegExReplace()</a> 支持.</p>

<h2 id="toc">目录</h2>
<ul>
    <li><a href="#syntax">语法</a></li>
    <li><a href="#callout-functions">正则调出函数</a></li>
    <li><a href="#EventInfo">EventInfo</a></li>
    <li><a href="#auto">自动调出</a></li>
    <li><a href="#remarks">备注</a></li>
</ul>

<h2 id="syntax">语法</h2>

<p>在 AutoHotkey 中正则调出的语法为 <span class="regex">(?C<em>Number</em>:<em>Function</em>)</span>, 其中 <em>Number</em> 和 <em>Function</em> 都是可选的. 只有在指定了 <em>Function</em> 才允许使用冒号, 而如果省略 <em>Number</em> 则冒号也可以省略. 如果指定的 <em>Function</em> 不是自定义的函数名称, 则会出现编译错误且不会开始模式匹配.</p>

<p>如果省略 <em>Function</em>, 则必须在 <b>pcre_callout</b> 变量中指定函数名称. 如果同时存在此名称的全局变量和局部变量, 则局部变量优先. 如果 <em>pcre_callout</em> 没有包含自定义函数的名称, 那么省略了 <em>Function</em> 的正则调出会被忽略.</p>

<h2 id="callout-functions">正则调出函数</h2>

<pre class="Syntax">
Function(Match, CalloutNumber, FoundPos, Haystack, NeedleRegEx)
{
    ...
}
</pre>
<p>正则调出函数最多可以定义 5 个参数:</p>
<ul>
  <li><b>Match</b>: 相当于 RegExMatch 中的 <em>OutputVar</em>, 包含需要时数组变量的创建.</li>
  <li><b>CalloutNumber</b>: 接收正则调出的 <em>Number</em>.</li>
  <li><b>FoundPos</b>: 接收当前可能匹配的位置.</li>
  <li><b>Haystack</b>: 接收传递给 RegExMatch() 或 RegExReplace() 的 <em>Haystack</em>.</li>
  <li><b>NeedleRegEx</b>: 接收传递给 RegExMatch() 或 RegExReplace() 的 <em>NeedleRegEx</em>.</li>
</ul>
<p>这些名称只是暗示性的. 实际中可以使用其他的名称.</p>

<p class="warning"><strong>警告:</strong> 在调用期间更改 <a href="../lib/RegExReplace.htm">RegExReplace</a> 或 <a href="../lib/RegExMatch.htm">RegExMatch</a> 的输入参数是不受支持的, 可能会导致不可预测的行为.</p>

<p>模式匹配是继续进行或失败, 取决于正则调出函数的返回值:</p>
<ul>
  <li>如果函数返回 <b>0</b> 或没有返回数值, 则匹配操作如常进行.</li>
  <li>如果函数返回 <b>1</b> 或更大的数字, 则在当前位置匹配失败, 但继续进行剩余部分的匹配测试.</li>
  <li>如果函数返回 <b>-1</b>, 则匹配中止.</li>
  <li>如果函数返回小于 -1 的值, 则它被视为 PCRE 错误码且匹配中止. RegExMatch() 返回空字符串, 而 RegExReplace() 返回原始的 <em>Haystack</em>. 在这两个函数中, ErrorLevel 都包含了错误码.</li>
</ul>

<p>例如:</p>
<pre>Haystack := "The quick brown fox jumps over the lazy dog."
RegExMatch(Haystack, "i)(The) (\w+)\b(?CCallout)")
Callout(m) {
    MsgBox m=%m%`nm1=%m1%`nm2=%m2%
    return 1
}</pre>
<p>在上面的例子中, 对于匹配正则调出之前的那部分模式的每个子字符串都会调用一次 <em>Callout</em>. 使用 <span class="regex">\b</span> 排除匹配到不完整的单词, 例如 <em>The quic</em>, <em>The qui</em>, <em>The qu</em>, 等等.</p>

<h2 id="EventInfo">EventInfo</h2>

<p>通过 <b>A_EventInfo</b> 可以使用 pcre_callout_block 结构的附加信息.</p>
<pre>version           := NumGet(A_EventInfo,  0, "Int")
callout_number    := NumGet(A_EventInfo,  4, "Int")
offset_vector     := NumGet(A_EventInfo,  8)
subject           := NumGet(A_EventInfo,  8 + A_PtrSize)
subject_length    := NumGet(A_EventInfo,  8 + A_PtrSize*2, "Int")
start_match       := NumGet(A_EventInfo, 12 + A_PtrSize*2, "Int")
current_position  := NumGet(A_EventInfo, 16 + A_PtrSize*2, "Int")
capture_top       := NumGet(A_EventInfo, 20 + A_PtrSize*2, "Int")
capture_last      := NumGet(A_EventInfo, 24 + A_PtrSize*2, "Int")
pad := A_PtrSize=8 ? 4 : 0  <em>; 补足 64 位的数据偏移.</em>
callout_data      := NumGet(A_EventInfo, 28 + pad + A_PtrSize*2)
pattern_position  := NumGet(A_EventInfo, 28 + pad + A_PtrSize*3, "Int")
next_item_length  := NumGet(A_EventInfo, 32 + pad + A_PtrSize*3, "Int")
if (version &gt;= 2)
    mark   := StrGet(NumGet(A_EventInfo, 36 + pad + A_PtrSize*3, "Int"), "UTF-8")
</pre>
<p>想了解更多信息, 请参阅 <a href="http://www.pcre.org/pcre.txt">pcre.txt</a>, <a href="../lib/NumGet.htm">NumGet()</a> 和 <a href="../Variables.htm#PtrSize">A_PtrSize</a>.</p>

<h2 id="auto">自动调出</h2>

<p>在模式的选项中包含 <strong>C</strong> 来启用自动调出模式. 在这种情况下的调出相当于在模式里的每项前插入了 <span class="regex">(?C255)</span>. 例如, 下面的模板可以用来调试正则表达式:</p>
<pre><em>; 设置默认的正则调出函数.</em>
pcre_callout := "DebugRegEx"

<em>; 使用自动调出选项 C 来调用 RegExMatch.</em>
RegExMatch("xxxabc123xyz", "C)abc.*xyz")

DebugRegEx(Match, CalloutNumber, FoundPos, Haystack, NeedleRegEx)
{
    <em>; 请参阅 pcre.txt 了解这些字段的说明.</em>
    start_match       := NumGet(A_EventInfo, 12 + A_PtrSize*2, "Int")
    current_position  := NumGet(A_EventInfo, 16 + A_PtrSize*2, "Int")
    pad := A_PtrSize=8 ? 4 : 0
    pattern_position  := NumGet(A_EventInfo, 28 + pad + A_PtrSize*3, "Int")
    next_item_length  := NumGet(A_EventInfo, 32 + pad + A_PtrSize*3, "Int")

    <em>; 指出 &gt;&gt;当前匹配&lt;&lt;.</em>
    _HAYSTACK:=SubStr(Haystack, 1, start_match)
        . "&gt;&gt;" SubStr(Haystack, start_match + 1, current_position - start_match)
        . "&lt;&lt;" SubStr(Haystack, current_position + 1)
    
    <em>; 指出 &gt;&gt;要计算的下一个项目&lt;&lt;.</em>
    _NEEDLE:=  SubStr(NeedleRegEx, 1, pattern_position)
        . "&gt;&gt;" SubStr(NeedleRegEx, pattern_position + 1, next_item_length)
        . "&lt;&lt;" SubStr(NeedleRegEx, pattern_position + 1 + next_item_length)
    
    ListVars
    <em>; 按下 Pause 继续.</em>
    Pause
}</pre>

<h2 id="remarks">备注</h2>

<p>正则调出在当前的半线程中执行, 但在正则调出函数返回后将恢复 A_EventInfo 原来的值. 在 RegExMatch() 或 RegExReplace() 返回时才会设置 ErrorLevel 的值.</p>
<p>在一些可以确定不会发生匹配的情况下, 则会对 PCRE 进行优化来提早中止(即此时会不进行匹配而直接返回 "没有匹配" 的结果). 对于在这些情况中的所有正则调出, 可能需要在模式的开始处指定 <span class="regex">(*NO_START_OPT)</span> 来禁用这种优化. 此选项需要 <span class="ver">[v1.1.05]</span> 或更高版本.</p>

</body>
</html>